如何科学选择单细胞分析软件呢?
引言
对不同技术和实验平台产生的各种各样的单细胞测序数据进行深入的比较,在目前看来,仍然存在着一定的难度。这篇文章主要利用不同平台获取的数据,通过选择和比较不同的分析方法,最终为得到准确生物学解释算法提供指导。使用两种背景明确的细胞样本(乳腺癌细胞和B细胞),采取单独捕获以及群体捕获的方法,在多个中心使用不同的单细胞平台获取的单细胞样本数据,最终一共获取24个数据集。之后,对多种不同的预处理方法、标准化方法,批次效应矫正方法分别进行评估,来看各种方法对数据集的处理效果。
研究对象
选择来自同一个人的不同细胞类型:B细胞和乳腺癌细胞,使用不同的平台进行单独捕获和混细胞捕获。
使用多种单细胞平台和多个测序中心
四种单细胞平台:
10X
Fluidigm C1 HT
Fluidigm C1
ICELL8
四个测序中心:
Loma Linda University (LLU),
the National Cancer Institute (NCI)
the US Food and Drug Administration (FDA)
Takara Bio USA (TBU)
测序结果
所有样品的测序结果如下:
其中每列为:
平台:不同的单细胞平台;
文库:建库的文库类型,分别有3'文库和全长文库;
sampleID:样本编号,使用下划线链接,第一组信息为单细胞平台,第二组信息为测序中心,第三组信息为细胞类型(A->癌细胞,B->B细胞系,Mix->混合样本);
细胞类型:B细胞,癌细胞,或者使用5%癌细胞+95%B细胞;
测序仪:测序仪类型;
测序读长:样本的测序长度;
细胞数:测序后捕获到的细胞数量;
单细胞内reads中值:每个细胞中获取到的reads的中位数。
测评流程
对预处理流程、标准化方法、批次效应鉴定以及生物学意义等方面进行全面的测评,流程图如下:
预处理效果评估
预处理流程分为10X文库和非10X文库的处理,如上图所示:
10X文库的预处理流程效果
图a是不同软件处理后得到的细胞数,横坐标为样本名,纵坐标为细胞数;
图b是不同软件处理后的单细胞中表达的基因数量,横坐标为样本名,纵坐标为单个细胞中检测到的基因数量;
图c是两两软件相关性图。
结论:
CellRanger软件在细胞数量鉴定中最为灵敏;
UMI-tools和zUMIs软件过滤掉比较多的基因表达量低等细胞,但是获取到的基因数量最多的;
UMI-tools和zUMI软件相关性比较高。
最终选用Cell Range 3.1 处理10X文库(UMI-文库)进行后续分析。
非10X文库的预处理流程效果
图d是不同软件处理非10X文库得到的单细胞中的表达基因数量,横坐标为样本名(其中由C1_LLU和ICELL8的均为全长转录组文库),纵坐标为表达基因数量;
图e是两两软件之间的相关性。
结论:
三个流程处理后的数据差异比较大,其中featureCounts和RSEM流程相关性较高;
全长转录组文库鉴定到的基因数相对3’文库要更多。
标准化流程效果评估
使用8种方法进行标准化处理,使用Sihouette指标进行评估,用于评估聚类效果。
使用14个数据集(B细胞或者癌细胞样本)进行标准化处理流程的评估,如上图。
a-g分别表示不同数据集的结果,横坐标为未处理和不同标准化流程,纵坐标为Sihouette score。
结论:
TMM和quantitle结果最差,不建议使用;
Sctreansform 流程处理后的数据方差最小。
批次效应处理效果评估
一共使用7种算法处理批次效应,从两个维度(clusterability和mixability)进行评估。
分别使用:
1)20个数据集:评估算法/软件的clusterability;
2)10X 癌细胞文库 :评估算法/软件的mixability;
3)10X B细胞文库:评估算法/软件的mixability;
4)10X 混合细胞文库:评估算法/软件的clusterability。
其中:
clusterability:聚类程度,不同的细胞类型是否能够很好的区分开;
mixability:混合程度,不同批次的相同细胞类型是否能够聚类到一起。
clusterability评估聚类效果
图a,d 分别表示20个数据集以及10X混样数据集去除批次效应的结果。
其中,不同颜色表示不同的样本,最坐标的ideal为理想的聚类结果。
图e是不同软件处理20个数据集数据的结果(对应上面的图a);
图f是不同软件处理10X混合样本数据的结果(对应上面的图d)。
横坐标为不同软件,Uncorrected为未处理数据的结果,纵坐标为Sihouette score,score越高表示该方法的批次效应处理效果越好。
结论:
BBKNN,Harmony,fastMNN 在20个数据集中去除批次效应结果较好;
10X数据中BBKNN处理效果最好,其次是Seurat 3;
limma和ComBat在两个数据集中的表现均不是很优秀。
mixability评估聚类效果
图b为不同软件对10X -乳腺癌细胞文库去除批次效应后的结果;
图c为不同软件处理10X-B细胞文库去除批次效应后的结果;
图g为不同软件处理10X-乳腺癌细胞文库去除批次效应后的sihouette score;
图h为不同软件10X-B细胞文库去除批次效应后的sihouette score。
结论:
Harmmony和Seurat的表现较优
BBKNN在B细胞上表现更优
limma和Combat在B细胞中的去除批次效应效果更优
整体评估结果
综合评估各个算法/软件的处理效果:
使用四个评估指标对单细胞处理流程中的三个步骤(数据预处理,标准化和批次效应处理)进行评估,点越大表达该方法越好。
该文章总结出了一个指导方案,如下图:
如何选择预处理流程?
如果是UMI-文库,使用zUMIs,CellRanger进行数据预处理,如果是非UMI文库则使用kallisto等算法。
如何选择标准化处理流程?
不推荐使用TMM和quantile,其余4种算法可以依次进行选择。
如何选择批次效应处理流程?
如果样本特征比较相似,推荐使用Seurat3、Harmony、astMNN,如果是10X文库,也可以使用Scanorama;
如果样本间有共有的细胞类型(例如不同批次的5%癌细胞和B细胞)则选择Harmony、fastMNN、Seurat3,如果是10X文库,也可以使用Scanorama;
如果样本间的细胞类型差异比较大(例如分别是B细胞或者是癌细胞)则使用BBKNN,Harmony,不推荐使用Seurat3。
参考文献
Chen, W., Zhao, Y., Chen, X. et al. A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples. Nat Biotechnol (2020). (https://doi.org/10.1038/s41587-020-00748-9)
作者:Holiday
审稿:童蒙
编辑:amethyst
往期推荐